反向工程从其他表示形式进行的CAD形状是许多下游应用程序的重要几何处理步骤。在这项工作中,我们介绍了一种新型的神经网络体系结构,以解决这项具有挑战性的任务,并使用可编辑,受约束的棱镜CAD模型近似平滑的签名距离函数。在训练过程中,我们的方法通过将形状分解为一系列2D轮廓图像和1D包膜函数来重建体素空间中的输入几何形状。然后可以以不同的方式重新组合这些,以允许定义几何损失函数。在推断期间,我们通过首先搜索2D约束草图的数据库来获取CAD数据,以找到近似配置文件图像的曲线,然后将它们挤出并使用布尔操作来构建最终的CAD模型。我们的方法比其他方法更接近目标形状,并输出与现有CAD软件兼容的高度可编辑的约束参数草图。
translated by 谷歌翻译
视觉和听觉信息对于确定视频中的显着区域都是有价值的。深度卷积神经网络(CNN)展示了应对视听显着性预测任务的强大能力。由于各种因素,例如拍摄场景和天气,源训练数据和目标测试数据之间通常存在适度的分布差异。域差异导致CNN模型目标测试数据的性能降解。本文提前尝试解决视听显着性预测的无监督域适应问题。我们提出了一种双重域交流学习算法,以减轻源数据和目标数据之间的域差异。首先,建立了一个特定的域歧视分支,以对齐听觉功能分布。然后,这些听觉功能通过跨模式自我发项模块融合到视觉特征中。设计了其他域歧视分支,以减少视觉特征的域差异和融合视听特征所隐含的视听相关性的差异。公共基准测试的实验表明,我们的方法可以减轻域差异引起的性能降解。
translated by 谷歌翻译
在自然语言处理中,广泛使用黑框模型为对决策基础的理解,预测结果的可信度以及改善模型性能带来了巨大挑战。文本样本中的单词具有反映其语义和上下文信息的属性,例如语音,位置等。这些属性可能与显着性一词具有一定的关系,这有助于研究模型的解释性预测。在本文中,我们探讨了“显着性”一词和属性一词之间的关系。根据分析结果,我们进一步建立了一个映射模型Seq2Sality,从文本样本中的单词及其属性到基于序列标记的概念的显着性值。此外,我们建立了一个名为PRSALM的新数据集,该数据集包含文本示例中的每个单词,单词属性和单词显着性值。进行实验评估以分析具有不同特性的单词的显着性。验证了SEQ2Sality模型的有效性。
translated by 谷歌翻译
深度学习的巨大成功主要是由于大规模的网络架构和高质量的培训数据。但是,在具有有限的内存和成像能力的便携式设备上部署最近的深层模型仍然挑战。一些现有的作品通过知识蒸馏进行了压缩模型。不幸的是,这些方法不能处理具有缩小图像质量的图像,例如低分辨率(LR)图像。为此,我们采取了开创性的努力,从高分辨率(HR)图像到达将处理LR图像的紧凑型网络模型中学习的繁重网络模型中蒸馏有用的知识,从而推动了新颖的像素蒸馏的当前知识蒸馏技术。为实现这一目标,我们提出了一名教师助理 - 学生(TAS)框架,将知识蒸馏分解为模型压缩阶段和高分辨率表示转移阶段。通过装备新颖的特点超分辨率(FSR)模块,我们的方法可以学习轻量级网络模型,可以实现与重型教师模型相似的准确性,但参数更少,推理速度和较低分辨率的输入。在三个广泛使用的基准,\即,幼崽200-2011,Pascal VOC 2007和ImageNetsub上的综合实验证明了我们方法的有效性。
translated by 谷歌翻译
深度学习(DL)模型在许多应用领域中取得了卓越的性能,包括愿景,语言,医疗,商业广告,娱乐等。随着快速的发展,DL应用和潜在的服务硬件都表现出强大的缩放趋势,即例如,模型缩放和计算缩放,例如,最近的预先训练模型,具有数百亿次参数,具有〜TB级存储器消耗,以及提供数百个TFLOPS的最新GPU加速器。在扩大趋势,新的问题和挑战中出现了DL推理服务系统,这逐渐朝着大型深度学习服务系统(LDS)趋势。该调查旨在总结和分类大规模深度学习服务系统的新兴挑战和优化机会。通过提供新的分类法,总结计算范例,并详细说明最近的技术进步,我们希望这项调查能够在新的优化视角下阐明,并激励小说在大型深度学习系统优化中的作品。
translated by 谷歌翻译
深度加强学习(DRL)在复杂的视频游戏中取得了超级性能(例如,星际争霸II和DOTA II)。然而,目前的DRL系统仍然遭受多助手协调,稀疏奖励,随机环境等的挑战。在寻求解决这些挑战时,我们雇用了足球视频游戏,例如Google Research Football(GRF),如我们测试的开发基于端到端的学习的AI系统(表示为Tickick)以完成此具有挑战性的任务。在这项工作中,我们首先从联赛培训获得的单一代理专家的自我播放中生成了一个大型重播数据集。然后,我们开发了一个分布式学习系统和新的离线算法,以从固定的单个代理数据集中学习一个强大的多辅助AI。据我们所知,Tickick是第一个基于学习的AI系统,可以接管多个Agent Google Research Footful Game,而以前的工作可以控制单一代理或实验玩具学术情景。广泛的实验进一步表明,我们的预先训练的模型可以加速现代多功能算法的训练过程,我们的方法在各种学术方案上实现了最先进的性能。
translated by 谷歌翻译
在点击率(CTR)预测方案中,用户的顺序行为很好地利用来捕获最近文献中的用户兴趣。然而,尽管正在广泛研究,但这些顺序方法仍然存在三个限制。首先,现有方法主要利用对用户行为的注意,这并不总是适用于CTR预测,因为用户经常点击与任何历史行为无关的新产品。其次,在真实场景中,很久以前存在许多具有运营的用户,但最近的次数相对不活跃。因此,难以通过早期行为精确地捕获用户的当前偏好。第三,不同特征子空间中用户历史行为的多个表示主要被忽略。为了解决这些问题,我们提出了一种多互动关注网络(Mian),全面提取各种细粒度特征之间的潜在关系(例如,性别,年龄和用户档案)。具体而言,MIAN包含多交互式层(MIL),其集成了三个本地交互模块,通过顺序行为捕获用户偏好的多个表示,并同时利用细粒度的用户特定的以及上下文信息。此外,我们设计了一个全局交互模块(GIM)来学习高阶交互,平衡多个功能的不同影响。最后,脱机实验结果来自三个数据集,以及在大型推荐系统中的在线A / B测试,展示了我们提出的方法的有效性。
translated by 谷歌翻译
本文研究了用于无监督场景的图形神经网络(GNN)的节点表示。具体地,我们推导了理论分析,并在不适当定义的监督信号时,在不同的图形数据集中提供关于GNN的非稳定性能的实证演示。 GNN的性能取决于节点特征平滑度和图形结构的局部性。为了平滑通过图形拓扑和节点功能测量的节点接近度的差异,我们提出了帆 - 一个小说\下划线{s} elf- \下划线{a} u段图对比度\下划线{i} ve \ nignline {l}收入框架,使用两个互补的自蒸馏正则化模块,\ emph {Ie},内部和图间知识蒸馏。我们展示了帆在各种图形应用中的竞争性能。即使使用单个GNN层,Sail也在各种基准数据集中持续竞争或更好的性能,与最先进的基线相比。
translated by 谷歌翻译
In this work, we propose a self-supervised multi-agent system, termed a memory-like adaptive modeling multi-agent learning system (MAMMALS), that realizes online learning towards behavioral pattern clustering tasks for time series. Encoding the visual behaviors as discrete time series(DTS), and training and modeling them in the multi-agent system with a bio-memory-like form. We finally implemented a fully decentralized multi-agent system design framework and completed its feasibility verification in a surveillance video application scenario on vehicle path clustering. In multi-agent learning, using learning methods designed for individual agents will typically perform poorly globally because of the behavior of ignoring the synergy between agents.
translated by 谷歌翻译
在6G无线通信网络中,按需服务提供是一个至关重要的问题,因为新兴服务的需求大大不同,并且网络资源变得越来越异质和动态。在本文中,我们研究了按需无线资源编排问题,重点是编排决策过程的计算延迟。具体而言,我们将决策延迟延迟到优化问题。然后,提出了一个基于动态的神经网络(DYNN)的方法,可以根据服务要求调整模型复杂性。我们进一步建立一个知识库,代表服务需求之间的关系,可用的计算资源和资源分配绩效。通过利用知识,可以及时选择DYNN的宽度,从而进一步提高编排的性能。仿真结果表明,所提出的方案大大优于传统的静态神经网络,并且在按需服务提供方面也表现出足够的灵活性。
translated by 谷歌翻译